云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务,提供丰富的监控指标。日志服务支持接入云监控数据,并支持您使用智能巡检功能对云监控数据进行智能的异常巡检。
前提条件
已导入云监控数据到目标Metricstore中(例如Project:monitor,Metricstore:cloud-monitor-metrics)。具体操作,请参见
导入云监控数据。
步骤一:分析数据
接入云监控数据后,您可以先选择一个指标进行分析,并构造对应的查询分析语句。当该指标的分析结果符合预期时,您可以根据业务需求筛选更多的指标,构造查询分析语句,用于创建智能巡检作业。
- 登录日志服务控制台。
- 进入Metricstore页面。
- 在Project列表区域,单击目标Project。
- 在页签中,单击目标Metricstore。
- 查看监控指标。
例如下图中已接入582个监控指标,详细的监控指标说明请参见
预设监控项参考。此处以
acs_ecs_dashboard:cpu_system:Average为例,选择该指标后,日志服务将通过时序图展示该指标的变化情况。
- 分析监控指标。
- 单击页面右上角的查询页面。
- 输入如下查询分析语句,单击查询/分析。
* |
select
promql_query_range(
'avg({__name__=~"acs_ecs_dashboard:cpu_system:Average"}) by (instanceId, __name__) ',
'15s'
)
FROM metrics
limit
1000000
执行上述语句后,返回如下预期的结果,因此您可以将该查询分析语句应用到更多的监控指标中。
- 筛选监控指标。
根据业务需求选择更多的监控指标,构造查询分析语句,用于智能巡检。
* |
select
time / 1000 as time,
metric,
element_at(labels, 'instanceId') as instanceId,
value
FROM (
select
promql_query_range(
'avg({__name__=~"acs_ecs_dashboard:CPUUtilization:Average|acs_ecs_dashboard:DiskReadBPS:Average|acs_ecs_dashboard:DiskReadIOPS:Average|acs_ecs_dashboard:DiskWriteBPS:Average"}) by (instanceId, __name__) ',
'1m'
)
FROM metrics
)
limit
10000
ECS相关的重要指标如下所示。详细的监控指标说明请参见
预设监控项参考。
acs_ecs_dashboard:CPUUtilization:Average
acs_ecs_dashboard:DiskReadBPS:Average
acs_ecs_dashboard:DiskReadIOPS:Average
acs_ecs_dashboard:DiskWriteBPS:Average
acs_ecs_dashboard:DiskWriteIOPS:Average
acs_ecs_dashboard:InternetIn:Average
acs_ecs_dashboard:InternetInRate:Average
acs_ecs_dashboard:InternetOut:Average
acs_ecs_dashboard:InternetOutRate:Average
acs_ecs_dashboard:InternetOutRate_Percent:Average
acs_ecs_dashboard:IntranetIn:Average
acs_ecs_dashboard:IntranetInRate:Average
acs_ecs_dashboard:IntranetOut:Average
acs_ecs_dashboard:IntranetOutRate:Average
acs_ecs_dashboard:cpu_idle:Average
acs_ecs_dashboard:cpu_other:Average
acs_ecs_dashboard:cpu_system:Average
acs_ecs_dashboard:cpu_total:Average
acs_ecs_dashboard:cpu_user:Average
acs_ecs_dashboard:cpu_wait:Average
acs_ecs_dashboard:disk_readbytes:Average
acs_ecs_dashboard:disk_readiops:Average
acs_ecs_dashboard:disk_writebytes:Average
acs_ecs_dashboard:disk_writeiops:Average
acs_ecs_dashboard:load_1m:Average
acs_ecs_dashboard:load_5m:Average
acs_ecs_dashboard:memory_actualusedspace:Average
acs_ecs_dashboard:memory_freespace:Average
acs_ecs_dashboard:memory_freeutilization:Average
acs_ecs_dashboard:memory_totalspace:Average
acs_ecs_dashboard:memory_usedspace:Average
acs_ecs_dashboard:memory_usedutilization:Average
acs_ecs_dashboard:net_tcpconnection:Average
acs_ecs_dashboard:networkin_errorpackages:Average
acs_ecs_dashboard:networkin_packages:Average
acs_ecs_dashboard:networkin_rate:Average
acs_ecs_dashboard:networkout_errorpackages:Average
acs_ecs_dashboard:networkout_packages:Average
acs_ecs_dashboard:networkout_rate:Average
步骤二:创建智能巡检作业
- 登录日志服务控制台。
- 进入创建作业页面。
- 在日志应用区域,单击智能异常分析。
- 在实例列表中,单击目标实例。
- 在左侧导航栏中,单击智能巡检。
- 在巡检任务区域,单击立即创建。
- 在创建智能巡检作业配置向导的基本信息区域,完成如下配置,然后单击下一步。
- 在创建智能巡检作业配置向导的算法配置区域,完成以下操作。
- 在数据特征配置区域的数据类型中,选择通过SQL格式化数据,然后完成以下配置。
- 在算法配置区域,完成以下配置,然后在数据采样中,选择一个实体,单击预览采样数据,验证您所配置的参数与您的数据是否适配,以及执行结果是否符合您的预期。
- 在调度配置区域,设置智能巡检作业开始执行的时间和数据延时时长。
注意
- 建议设置时间范围的起始时间为两天前的时间,使算法模型有足够的数据进行学习。
- 由于导入云监控数据存在延迟(大约3分钟),因此建议设置数据延迟时长为300秒。
- 单击下一步。
- 在创建智能巡检作业配置向导的告警配置区域,完成以下配置,然后单击完成。
当指标异常时,即
result.score大于
0.75时,日志服务将发送告警通知到钉钉群中。接收到告警后,您可以在钉钉群中,对告警进行打标。具体操作,请参见
告警与打标反馈。